贫穷限制AI想象?|硅谷徐老师对话前OpenAI模型专家
编者按:
年初火爆一时的斯坦福 Smallville「虚拟小镇」现在宣布正式开源。在这个「虚拟小镇」中,研究人员添加了 25 个生成式智能体 (Generative Agents),智能体由 ChatGPT 和自定义代码控制,每一个都有自己独特的身份、记忆和行为,并且可以独立交互,只是他们不会意识到自己是虚拟的,仿佛美剧《西部世界》里的剧情变成了现实。
本期「科技早知道」是硅谷徐老师与「OnBoard」的串台节目,邀请了两位曾在 OpenAI 工作的 AI 智能体研究领域的大牛,一起聊一聊硅谷人正在 all-in 的 AI 智能体,会把我们带入一个怎样的未来。
本期嘉宾
Jim Fan:英伟达高级 AI 研究科学家,曾在OpenAI实习,博士就读于斯坦福大学。
戴涵俊:Google DeepMind 研究员,博士就读于乔治亚理工大学。
▲硅谷徐老师、戴涵俊、Jim Fan 和「OnBoard」主播 Monica(从左至右)的合影。| 图源:硅谷徐老师
▲本文部分内容整理自播客「What's Next丨科技早知道」节目。更完整对话,请收听本期节目
AI 智能体离我们有多远
Jim Fan:虚拟世界与物理世界的 AI 智能体有相通之处,也有不同。如果我们需要一个 AI 助手,帮助我们查收邮件、预定会议,那让 AI 智能体参与进来的最佳方式之一是让它写代码,充分利用开源接口 API,把软件工具串联到一起,比如像 ChatGPT。而应用在游戏、机器人等方面时,就不仅仅是写代码,还要考虑计算机视觉等其他问题,要能让 AI 智能体看到一个完整的三维世界,因此多模态变得非常重要。
通用机器人要投入应用,还需要解决一个更有挑战性的问题——数据采集。机器人和 LLM 有一个重要区别,LLM 在训练大语言模型时,可以轻松从互联网上获取训练用的数据,数据量不成问题。但机器人不同,很多数据无法从互联网上获得,而是需要主动采集。数据采集有两种主流模式,要么是通过模拟器完成,要么是以量取胜,购买大量机器人。两种采集方式各有利弊。
硅谷徐老师:AI 智能体未来的成长空间非常大。但目前这个阶段,距离它落地成为成熟的工业应用,还有很长一段路要走。就好像今年三四月,AutoGPT 非常火,但没有人真正用 AutoGPT 做严肃的事。
戴涵俊:完成一件事需要多次迭代,在客户服务这样的场景中,延迟(latency)就是需要解决的棘手问题。
如何评估则是另一个需要考虑的问题。AI 智能体在使用工具时,需要将一个具体任务分解成无数个小步骤。比如我们现在让 AI 智能体帮我们订机票,它需要先找到正确的网站,然后输入正确的时间、正确的地点,这就跟强化学习有关,中间的每个环节最好都有反馈,在反馈中得到最优路径需要耗费比较长的时间。
当 AI 智能体在其中某个环节没能完成目标任务时,应该如何评估这些错误的行为和错误的结果,也是 AI 智能体需要具备的能力。比如,前面有一辆汽车停下来了,AI 智能体需要判断前面这辆车停下的原因是什么,进而选择自己的动作是停下还是绕道;又或者说,AI 智能体发现自己判断不了当前的情况,它是否需要联系后端的操作人员,请求人为远程干预来解决当前的情况。如何让 AI 智能体实现对各类工具的安全使用、合理使用,是有挑战的事。
Jim Fan:在很多领域,比如无人驾驶领域,安全性、可靠性都是至关重要的考虑因素。如果不能在这些方面实现 90% 或以上的保障,AI 智能体可能很难落地。换个角度,AI 智能体最容易落地的场景,应该是更强调创造性、娱乐性的场景,比如游戏。
游戏大厂其实对 AI NPC(non-player character)非常感兴趣,因为这能让玩家实现独一无二的游戏体验,像前一段时间有一个「病娇女友」的游戏,就是 AI-first 游戏,背后完全是通过 ChatGPT 做的。不过,目前还没有 3A 级的游戏大厂在大规模部署 AI NPC。
▲图源:Youtube 森零
Monica:如果未来 APP 变成 AI 智能体的工具,用户不需要知道 AI 智能体到底操作了哪一个 APP,那对于工具提供方来说意味着什么?SaaS(软件即服务,指一种基于云的软件交付模式)行业会受到什么样的影响?
硅谷徐老师:不管是软件领域,还是硬件领域,都一定会发生这个情况,可能硬件领域需要的时间会长一些。每一个企业服务商都会有自己的 Copilot(一个人工智能工具)产品,就算不是明年,也会在 5 年之内实现。对于写程序的人来说,当 Copliot 变成一等公民(first-class citizen)之后,需要考虑的问题会跟现在不一样,因为以后写代码文件也得考虑怎么写才能让机器人更好地学习。企业服务商最后是要做服务于 AI 智能体的产品,这也是一件解放所有人生产力的事。
戴涵俊:对于软件开发商来说,之前能直接面对客户,未来则是面对 AI 智能体这样的中间商,那软件开发商的积极性会受打击吗?软件商如何实现获利?
Jim Fan:能掌管生态系统、控制 API 的大公司,未来就会有巨大优势,比如说微软能控制自己背后所有的源代码,那微软 Copilot 在未来就拥有更大的优势。
▲图片来源:Microsoft
人才必然流动,阻碍定会变化
Monica:大家觉得现在大模型更像是一种炼金术,有很多可能,或者不足为外人道,或者就算告诉你了,你也很难去复刻。不过,既然人才是流动的,那与大模型相关的商业核心或者技术秘密一般能维持多久?
戴涵俊:从能力或者知识储备的角度来说,每个大厂在这方面的人才积累都是足够的,人才差距也不是很大。但是,很多时候哪怕是知道了模型的一些细节,也很难完全复刻,主要问题就是如何在小规模实验中不断尝试和积累模型调用的经验,以及如何在大模型中正确运用这些经验。大厂也需要花算力来学习这些知识。
Jim Fan:顶级人才基本上还是在 OpenAI 和谷歌之间互相流动。想要弥合闭源和开源模型之间存在的巨大差距,目前还比较难。
硅谷徐老师:从长远角度看,在硅谷的历史中,人才其实从来不会只困在几家公司里,包括OpenAI,也有人选择自己出来创业或者加入别的公司;也没有哪个产品是只有一家企业能做,其他公司都做不了的。
不同企业做同一个产品的条件有所不同,比如算力对 AI 企业来说是一个必要条件,那仅有人才优势的企业所拥有的竞争条件就是不充分的。但如果我们拉长观察的时间维度,仔细看过去百年中我们经历的每一个技术革命周期,就会发现,再贵的技术,只要能实现大规模生产,成本最终会大幅下降。最终来说,算力不会成为技术创新的阻碍。
历史总是不断被重复。对于一家企业来说,真正重要的不是寻找个别人才,而是打造能不断汇集各类人才的企业文化。3 年之内,前沿模型的优势会继续保持,人才流动可能也不会很快,但 3 年之后我们再看,可能会有其他因素变得更加重要。
对于一家企业来说,很多任务都不需要用最好的、最前沿的模型来处理,用开源模型就已绰绰有余。而对于像金融、国防这样的关键领域,不是所有数据都能想拿就拿,也可能必须要做一个领域专属的模型。
▲图源:Forbes
Jim Fan:哪怕是现在做闭源模型的企业,其实也会为合作伙伴提供微调服务,像 Anthropic、OpenAI。像 OpenAI 还有自己的基金,会投资一些感兴趣的创业公司,每家被投企业都可以看作是一个垂直领域。
举个例子,OpenAI 投资了一家为法律行业提供大模型服务的 AI 企业 Harvey,Harvey 可能在 AI 法律这个领域里有最好的前沿模型,也能为法律行业的合作伙伴提供微调服务。专注于垂直领域前沿模型的企业,对于合作方会挑剔一些,偏向与大企业合作,因为它们服务企业的能力会受限于自身芯片的数量。
戴涵俊:所以在企业应用中,有两个特别重要的思考点,一是成本,二是隐私。
第一视角看 OpenAI
Jim Fan:OpenAI 2015年成立,我 2016年夏天在 OpenAI 实习,那时候 OpenAI 还在探索期,AGI(通用人工智能)已经是 OpenAI 的一个口号,但大家还不清楚这条路要怎么走通。当时 OpenAI 觉得,让 AI 控制鼠标和键盘,就是迈向 AGI 最直接、最通用的办法。但最后这个项目因为泛化能力不足而被关停。同一时间,OpenAI 主要投入精力去做的项目,都是 OpenAI 觉得人类通往 AGI 可能要走的必经之路,有一个项目是准备在 Dota 这款游戏上赢过人类团队,还有一个项目是做能解开魔方的机械手。
同样是在2016年,OpenAI 里已经有人借助 Reddit 的数据来训练聊天机器人(Chatbot)了,用回馈式的神经网络来预测下一个单词是什么,当时还没有 Transformer(一款利用注意力机制来提高模型训练速度的模型),训练效果也不是很好。这个项目当时在 OpenAI 内部的优先级并不高,也没有投入很多算力,但这个项目就是后来 GPT 的雏形——GPT0。
戴涵俊:我是 2018 年进入 OpenAI 实习的。刚刚提到的这些内部项目,在 2018 年已经很有成效了。比如 Dota 那个项目,能跟比较头部的选手打得有来有回。我当时的组就是要让模型更快适应新游戏,用少量样本完成新知识的学习、新能力的积累。
那时 GPT 项目已经进展到 GPT2,相关论文在外部评审中也收到了很多反馈,有一些批评是比较尖锐的,中间项目也有不顺利或者走下坡路的阶段,但 Sam Altman 等人的决心没有动摇,团队坚信通向 AGI 是正确的事情。另外,ChatGPT 最先对公众开放,收获了很多重要数据,因而迭代速度非常快,这就是量变引起质变。
▲图源:Wired
硅谷徐老师:2015 年 OpenAI 成立时,我觉得 ChatGPT 实现的时间点在 2030 年左右,因为我认为这是要十几年才能实现的事。大概在 2020 年,GPT3 出来了,对我来说是很大的惊喜,GPT3 在当时所展现的基于文本的学习能力,比预期出现时间要早好几年。这样的技术跳跃让我觉得,ChatGPT 会在更短的时间内出现。
Jim Fan:从我 2016 年开始关注 OpenAI 的每一篇论文起,GPT3 对我的震撼也是最大的,其次就是 CLIP (一种基于对比文本—图像对的预训练模型)和 DALL-E(一款可以根据书面文字生成图像的人工智能系统)。这些产品开创了一个新纪元,堆更多的算力,然后把互联网上所有(公开)数据都拿来做训练。如今想来理所当然的事,跟当时的主流做法是不一样的。当时的学术圈因为贫穷而限制了想象,OpenAI 的做法提供了全新的思维模式和技术范式。
▲图源:The Times